昨天用的那個smote使用體驗實在太差了。沒看懂,而且我加了之後預設能力反而變差了許多(可能是我自己的問題啦),所以我就在找了幾種方法來試試看,不過因為我使用的資料有點大,ONE HARD ENCODE 的時候我的電腦記憶體不足,要等禮拜一有可以執行的電腦的時候才能試了。
我查到最簡單的方法就是ROSE了。
library(ROSE)
ROSE(target ~ ., data = data, seed = 1)$data
#後面的data是公式,不是資料本身
其實我這個人做資處的時候還是傾向寧願資料過度配適的,就是在訓練的時候先做一個超級符合的模型,如果成效不好,
我們再換一個看看,不然就是像我現在家裡的電腦不得不使用欠採樣,我是絕對不會使用的。不過要輸入你想要增加的N值,可以用table參數去看應該要寫多少
with(data,table(target))
ovun.sample(target ~ ., data = data, method = "over",N = 1960)$data